【起源介紹】
(一)ChatGPT誕生的故事:從Transformer模型到GPT3.5
AI聊天機器人ChatGPT的誕生可追溯至2017年由Google開發的Transformer深度學習模型,此模型採用自注意力機制(Self-Attention),可以根據文字資料之間的重要性進行權重計算,並實施平行運算(parallel Computing)方式,不必像傳統的NLP模型一次只能處理一個單詞,藉此減少訓練所需的時間。Transformer的技術突破在於不論是聊天機器人、文字翻譯、語音辨識,甚至圖像識別都有傑出的呈現,已經逐漸取代NLP範疇的循環神經網路、電腦視覺領域及長短期記憶模型的卷積神經網路(Convolutional Neural Networks,CNNs)
近年來許多知名的大型模型BERT、GPT3,以及開發出ChatGPT的GPT3.5都是奠基於Transformer架構上,而GPT及GPT3.5的訓練方式皆採取「生成式預訓練」(Generative Pre-Training,GPT)加上「微調」(Fine-Tuning)。所謂生成式預訓練是指藉由大量無標註的語料訓練模型,即非監督式學習;微調則是使用少量標註的語料,針對特定NLP任務調整模型,即監督式學習。透過上述訓練方法,使AI能執行多領域任務,從過去的弱人工智慧逐步朝向強人工智慧前進,而ChatGPT也在這波AI創新的浪潮中達成技術重大突破的里程碑。